max rank | avg. rank | sentence |
---|---|---|
489 | 156.2000 | Što dalje od Hrvatske jer za njih ovdje nema mjesta. |
499 | 273.8182 | Broj apartmana za najam i njihov kapacitet je A (2+1). |
586 | 196.8750 | Tako je bilo posljednjih pet do šest godina. |
586 | 215.2857 | Zbog toga se posljednjih nekoliko godina najveći. |
627 | 267.4444 | Ovaj puta je riječ o nešto manje novim, Više. |
653 | 260.0000 | On bi mi sigurno mogao reći kako do toga dolazi. |
685 | 168.2500 | Oni uvijek žele više, više i još više. |
781 | 271.0000 | U regiji živi više od 100 milijuna ljudi. |
794 | 257.0000 | Kako je to moguće u „zemlji znanja“? |
812 | 236.6667 | Kako ističe, i danas će se nastaviti taj proces. |
845 | 221.5000 | On nije rekao koja će se luka koristiti. |
866 | 331.0769 | A oni koji nisu ni jedno ni drugo, prodaju neki drugi dio tijela. |
867 | 351.3333 | Tijekom tri godine (od siječnja 2011. do prosinca 2013. |
910 | 364.7143 | Za razdoblje od siječnja do listopada 2013. |
922 | 312.2222 | Hrvatska bi mogla ostati bez novca iz europskih fondova? |
922 | 240.3333 | Što će nam na kraju ostati nakon ove vlasti? |
924 | 346.5000 | Međutim većina građana ni ne zna da te usluge postoje. |
931 | 265.6250 | "O tome ćemo nakon europskih izbora", rekao je. |
956 | 404.0000 | U pitanju je budućnost hrvatske države. |
970 | 498.1111 | Više informacija možete naći na web stranicama Europskog vijeća. |
970 | 400.8333 | Više na stranicama Europskog dana jezika. |
979 | 257.6667 | Do sada to ukupno stoji već dva milijuna kuna. |
1002 | 244.2857 | Vlada računa i na pomoć Europske unije. |
1038 | 319.0000 | Na to da nas možda uopće ni ne trebaju. |
1070 | 331.8889 | To sam rekla u Njemačkoj, to sam rekla ovdje. |
1088 | 380.6250 | I to nije jedini takav primjer u Hrvatskoj. |
1106 | 400.0667 | OPREMA KUHINJE : stol i sjedalice, sudoper, štednjak s tri kola, štednjak je na plin, hladnjak. |
1133 | 265.3333 | U ovoj godini očekuje se rast od 14 odsto. |
1155 | 466.5000 | Više na stranicama Vijeća Europske unije. |
1212 | 465.8000 | O trenutku u kojem si ljudi više nemaju što reći. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II